Quá trình quyết định Markov Hạn chế Quá trình quyết định Markov

Quá trình Quyết định Markov Hạn chế (CMDP) là phần mở rộng của Quá trình Quyết định Markov (MDP). Có ba khác biệt cơ bản giữa MDP và CMDP.[3]

  • Có rất nhiều chi phí phát sinh sau khi áp dụng một hành động thay vì một.
  • CMDP chỉ được giải duy nhất bằng Quy hoạch tuyến tính, và không thể áp dụng Quy hoạch động ở đây.
  • Điểm cuối cùng là sự phụ thuộc của trạng thái bắt đầu.

Có rất nhiều ứng dụng của CMDP. Gần đây nó đang được sử dụng trong các kịch bản lập kế hoạch chuyển động trong robotic. [4]

Tài liệu tham khảo

WikiPedia: Quá trình quyết định Markov http://www.cs.ualberta.ca/~sutton/book/ebook http://www.cs.uwaterloo.ca/~jhoey/research/spudd/i... http://www.springer.com/mathematics/applications/b... http://www.iumj.indiana.edu/IUMJ/FULLTEXT/1957/6/5... http://www.ai.mit.edu/~murphyk/Software/MDP/mdp.ht... http://www.eecs.umich.edu/~baveja/ http://www.eecs.umich.edu/~baveja/Papers/Thesis.ps... //dx.doi.org/10.1287%2Fmoor.22.1.222 http://www.jstor.org/stable/3690147 http://ncatlab.org/nlab/show/Giry+monad